國工數據大腦之殘差檢驗在回歸分析中的應用

新聞資訊

2022-02-16

業務背景

在現代化企業管理中，利用數據分析進行決策支持已成為重要手段，其中包括：過程控制、產能預測、市場決策等等。
在各類業務場景中如何用數字直觀地描述指標與指標之間的相關性是一個重要命題，該類業務大多基于回歸分析法，回歸分析法通過對過去的數據進行采樣來構建回歸模型，從而為決策和行動提供依據和建議。當回歸模型擬合不正確，會誤導企業決策的方向，浪費大量人力、物力、財力，給企業造成巨大的損失。因此，對回歸模型進行診斷是不可或缺的步驟。即判斷回歸模型是否正確、理想？換句話說，模型是否很好的提取了樣本的規律信息。國工智能MAI平臺提供了基于殘差檢驗進行回歸模型評估的科學算法。
殘差檢驗的內容

經典且理想的回歸模型的前提條件是：1.隨機誤差項各項之間無序列相關；2.隨機誤差項服從正態分布；3.隨機誤差項方差都相同或是固定的常數。（在實際應用中，隨機誤差項用殘差來代替）
滿足上述三個假設條件說明回歸模型是理想的。殘差是樣本值（藍點）與回歸直線（紅線）上的值（又稱回歸擬合值）之間的差，紅線可由數據大腦擬合回歸算法得出，具體見下圖。殘差檢驗即檢查經過回歸擬合后得到的殘差是否滿足上述三個條件。如果違背了上述其中之一的假設條件，就不是經典的線性回歸模型，這樣的模型用普通最小二乘法來估計往往失效，最后擬合出來的模型往往是有誤的，預測的效果也大打折扣。

圖1

（一）條件1：隨機誤差項各項之間無序列相關含義
序列相關即對于不同的樣本數據，其殘差之間存在某種相關性，以正相關為例，可以簡單理解為如果前一個殘差大于0，那么后一個殘差大于0的概率較大；而序列不相關是殘差之間互不影響，毫無規律，前一個殘差對下一個殘差的預測沒有幫助。如下所示：

圖2 序列正相關

圖3 序列不相關

（二）條件2：隨機誤差項服從正態分布含義
只要回歸方程擬合的足夠理想，即把所有影響因變量的因素都找對了，找齊了，那么剩下回歸擬合值和樣本點之間的各個誤差項就是服從正態分布的了。對于正態分布，我們只需要知道三件事，1.它長什么樣的，就是下圖；2.它的兩個參數，平均數和標準差；3.對于這個圖的解釋是什么，也就是樣本數據集中在平均數（下圖紅線的位置）周圍，且在總體上占到大多數（如圖中綠方框所示，落在綠方框中的樣本數據占很大的比例）。

圖4

（三）條件3：隨機誤差項方差都相同或是固定的常數含義（簡稱同方差）
舉個例子，假設我們采集到某個菜園大棚內一天內溫度和二氧化碳濃度的數據。研究溫度（X）對二氧化碳濃度（Y）的影響。無論溫度越來越高/低，還是二氧化碳濃度越來越低/高，誤差項都不會隨之變化而變化，因為各個誤差項之間的方差固定。方差反映的是數據的波動程度，方差不變，數據就保持原來的波動程度。
適用范圍

所有線性回歸模型。

應用場景

化工、釀造等裝置性行業的過程控制,往往是多變量共同作用。為了做好過程控制,實現“以因素管理結果",我們運用回歸分析的統計技術尋找規律,并用于生產過程控制。例如，啤酒釀造過程中成品啤酒的泡特性(秒),是直接關系到啤酒口感的技術要求。技術和經驗表明中間產物的總氮含量X對于需要滿足的泡沫時間Y (秒)有影響。數據如下:

表1

首先，用國工數據大腦平臺的一元線性回歸算法得到回歸方程：
Y=-5406.801+46.51*X

圖5

由圖5可知，模型已經通過了統計意義的檢驗。（具體見國工數據大腦之多元線性回歸在化學研發成本的預測一文）

其次，在此基礎上，進一步使用數據大腦平臺的殘差檢驗算法判斷回歸模型的理想度。實現殘差檢驗第一個方面：序列相關性的檢驗。（原假設是：不存在序列自相關。）打開國工數據大腦平臺。從數據大腦中的組件面板搜索殘差檢驗組件，拖到到工作面板，配置數據及參數。在診斷方法下拉列表選擇：Correlogram-Q-statistics；滯后階數選擇:12。如圖6：

圖6

運行結果：

圖 7

根據圖7可知，無論滯后階數為幾，其p值都大于0.1的顯著性水平，接受原假設，殘差序列不存在序列相關。

接下來，進行殘差檢驗的第二個方面：殘差序列正態性檢驗。（原假設：序列服從正態分布）在診斷方法下拉列表選擇：Histigram-Normality-Test；如圖3：

圖 8

運行結果：

圖 9

根據圖9可知，Jarque-Bera（JB）統計量的值為1.4136，它服從自由度為2的卡方分布，在0.1的顯著性水平下，其臨界值=4.605，故JB統計量<臨界值，接受原假設，該殘差序列服從正態分布。最后，進行殘差檢驗的第三個方面：檢驗方差是否相同。（原假設：序列方差相等）在診斷方法下拉列表選擇：Heteroskedasticity-Tests（懷特檢驗）；如圖10：

圖10

運行結果：

圖11

根據圖11可知，懷特檢驗統計量的值為1.052，它也服從自由度為2的卡方分布，在0.1的顯著性水平下，其臨界值=4.605，懷特檢驗統計量值<臨界值，接受原假設，該殘差序列存在方差相等的情況。

綜上，在啤酒的泡特性與總氮含量的一元線性回歸模型中，該殘差序列不存在序列相關，服從正態分布，且方差相同，上述的三個條件都滿足，說明回歸模型擬合不錯且準確，可使用該模型進行預測。

在下一批生產中，若X（總氮含量）=130，則Y（泡特性）的預測值=-5406.801+46.51*130=639.3（秒），以此類推，能夠預測到未來若干次生產中的成品啤酒的泡特性，可通過降低總氮含量等措施控制啤酒的泡特性，從而實現生產控制，實現效益最大化的目標。（具體預測及回歸模型含義國工數據大腦多元線性回歸在化學研發成本的預測一文）

国产一区二区免费视频|久久精品国产www456c0m|久久精品国产亚洲av瑜伽小说|亚洲毛片在线免费观看

人工智能化學研發

研發管理系統

智能制造管理平臺

數字孿生平臺

實驗室管理平臺

雙體系設備管理平臺

智能光譜分析系統

智能工業組網系統

網關/邊緣計算機

化工行業

醫藥行業

食品行業

高分子行業

飼料行業

新聞資訊

相關標簽

軟件產品

硬件產品